查看原文
其他

让 Avatar 动起来 - InstructAvatar、EMO、Follow-Your-Emoji

renee创业狗 Renee 创业随笔
2024-10-09

接着昨天的腾讯的两个对口型项目,今天再分享三个。

InstructAvatar

简介:InstructAvatar 是一个用于文本指导情感和动作控制的 Avatar 生成工具。

链接:https://github.com/wangyuchi369/InstructAvatar

团队:北京大学

场景

  • Emotional Talking Control
    情感说话控制

  • Facial Motion Control
    面部动作控制

模型架构

InstructAvatar 由两个组件组成:VAE H 用于从视频中解开运动信息,以及运动生成器 G 用于在音频和指令条件下生成运动潜变量。由于模型有两种类型的数据,在指令和音频中设计了两个开关。在推理过程中,VAE 中的运动编码器将被丢弃,通过迭代去噪高斯噪声来获得预测的运动潜变量。结合用户提供的肖像,通过 VAE 的解码器生成最终的视频。

EMO

简介:EMO 是一个在弱条件下,通过 Audio2Video 扩散模型生成表情丰富的人像视频的工具。

链接:https://github.com/HumanAIGC/EMO

团队:阿里巴巴

场景

  1. 唱歌
  • 使肖像唱歌

  • 不同语言和肖像风格

  • Rap

  1. 说话
  • 与不同角色对话

  • 跨演员表演

模型架构

EMO提出的方法框架主要包括两个阶段。在初始阶段,即帧编码阶段,使用 ReferenceNet 从参考图像和运动帧中提取特征。随后,在扩散过程阶段,预训练的音频编码器处理音频嵌入。面部区域掩码与多帧噪声结合,以控制面部图像的生成。接下来,使用骨干网络来进行去噪操作。在骨干网络中,应用了两种注意机制:参考注意力和音频注意力。这些机制对于保持角色身份和调节角色动作至关重要。此外,还利用时间模块来操作时间维度,并调整运动速度。

Follow-Your-Emoji

简介:Follow-Your-Emoji 是一个基于扩散的肖像动画框架,使用目标地标序列来动画化参考肖像。肖像动画的主要挑战是保持参考肖像的身份,传递目标表情,同时保持时间一致性和逼真度。

链接:https://follow-your-emoji.github.io/

团队:香港大学、腾讯、清华大学

场景

  • Single Motion + Multiple Portraits
    单一动作 + 多个肖像

  • Single Portrait + Multiple Motions
    单一肖像 + 多个动作

模型架构

首先使用地标编码器提取表情感知地标序列的特征,并将这些特征与多帧噪声融合。 

然后,利用渐进策略随机掩盖输入潜在序列的帧。 

最后,将这个潜在序列与融合后的多帧噪声拼接,并将其输入到去噪 U-Net 进行去噪处理以生成视频。

外观网络和图像提示注入模块帮助模型保持参考肖像的身份,时间注意力保持时间一致性。

在训练过程中,面部精细损失引导 U-Net 更多关注面部和表情的生成。

在推理过程中,参考 AniPortrait,使用运动对齐模块将目标地标与参考肖像对齐。然后,首先生成关键帧,并利用渐进策略预测长视频。

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存